Anthropic راهی ساده برای بهبود توانایی دستیار هوش مصنوعی خود در انجام وظایف پیچیده و چند مرحلهای پیدا کرده است: به آن اجازه دهید هنگام کار یادداشت بردارد.
این شرکت میگوید افزودن یک "دفترچه یادداشت" که کلود بتواند افکار خود را در آن بنویسد، همراه با چند پرامپت مثال، تواناییهای حل مسئله آن را به طور قابل توجهی بهبود میبخشد.
این سیستم از طریق یک دستور "think" کار میکند که به کلود فضایی میدهد تا قبل از حرکت به جلو، استدلال خود را ثبت کند. در باطن، این فقط یک دستور JSON است که این افکار را ردیابی میکند:
{
"name": "think",
"description": "Use the tool to think about something. It will not obtain new information or change the database, but just append the thought to the log. Use it when complex reasoning or some cache memory is needed.",
"input_schema": {
"type": "object",
"properties": {
"thought": {
"type": "string",
"description": "A thought to think about."
}
},
}, "required": ["thought"]
}
این با ویژگی "تفکر گسترده" که اخیراً به کلود اضافه شده است، متفاوت است. در حالی که "تفکر گسترده" به کلود کمک میکند قبل از تولید پاسخ، استدلال کند، "ابزار تفکر" جدید در طول فرآیند پاسخدهی خود کار میکند، به خصوص زمانی که کلود نیاز به پردازش اطلاعات جدید از ابزارهای دیگر دارد.
تفکر دیگری در زنجیره تفکرات
هنگامی که در سناریوهای خدمات مشتری خطوط هوایی در چارچوب Tau Bench آزمایش شد، کلود با پرامپت بهینهسازی شده 54 درصد بهتر از خط پایه عمل کرد. به گفته Anthropic، این پیشرفتها در وظایف چند مرحلهای و رعایت بهتر دستورالعملها میتواند به طور قابل توجهی به سیستمهای هوش مصنوعی مبتنی بر عامل، که هنوز با قابلیت اطمینان دست و پنجه نرم میکنند، سود برساند. آزمایشهای مهندسی نرمافزار دستاوردهای متوسطتری را نشان داد، با 1.6 درصد بهبود در امتیازات SWE-Bench.
نکته کلیدی فقط خود دفترچه یادداشت نیست - بلکه نشان دادن نحوه استفاده موثر از آن به کلود است. Anthropic پرامپتهای مثال ارائه میدهد که نشان میدهد چگونه قوانین را فهرست کنید، حقایق را بررسی کنید و مراحل بعدی را برنامهریزی کنید:
## Using the think tool
Before taking any action or responding to the user after receiving tool results, use the think tool as a scratchpad to:
- List the specific rules that apply to the current request
- Check if all required information is collected
- Verify that the planned action complies with all policies
- Iterate over tool results for correctness
Here are some examples of what to iterate over inside the think tool:
<think_tool_example_1>
User wants to cancel flight ABC123
- Need to verify: user ID, reservation ID, reason
- Check cancellation rules:
* Is it within 24h of booking?
* If not, check ticket class and insurance
- Verify no segments flown or are in the past
- Plan: collect missing info, verify rules, get confirmation
</think_tool_example_1>
<think_tool_example_2>
User wants to book 3 tickets to NYC with 2 checked bags each
- Need user ID to check:
* Membership tier for baggage allowance
* Which payments methods exist in profile
- Baggage calculation:
* Economy class × 3 passengers
* If regular member: 1 free bag each ? 3 extra bags = $150
* If silver member: 2 free bags each ? 0 extra bags = $0
* If gold member: 3 free bags each ? 0 extra bags = $0
- Payment rules to verify:
* Max 1 travel certificate, 1 credit card, 3 gift cards
* All payment methods must be in profile
* Travel certificate remainder goes to waste
- Plan:
1. get user ID
2. verify membership level for bag fees
3. check which payment methods in profile and if their combination is allowed
4. calculate total: ticket price + any bag fees
5. get explicit confirmation for booking
</think_tool_example_2>
به گفته Anthropic، دستور "think" برای تجزیه و تحلیل خروجی ابزار، پیروی از قوانین پیچیده و تصمیمگیری گام به گام که در آن اشتباهات میتواند پرهزینه باشد، بسیار مفید است. مثالهای خاص دامنه به دستیابی به بهترین نتایج کمک میکند. ابزار "Think" فقط باید زمانی اضافه شود که وظایف سادهتر - مانند تماسهای ابزار منفرد یا پرامپتها با محدودیتهای کم - به اندازه کافی به تنهایی قابل اعتماد نباشند.
این ابزار به راحتی با سیستمهای کلود موجود ادغام میشود و فقط زمانی بر عملکرد تأثیر میگذارد که واقعاً استفاده شود. اگرچه بیشتر آزمایشها از Claude 3.7 Sonnet استفاده میکردند، اما Anthropic گزارش میدهد که این پیشرفتها به همان خوبی با Claude 3.5 Sonnet (New) کار میکنند.
خلاصه
- Anthropic یک ابزار "think" برای دستیار هوش مصنوعی خود Claude معرفی کرده است که به سیستم اجازه میدهد یادداشت بردارد و وظایف پیچیده را به مراحل کوچکتر تقسیم کند که منجر به حل مسئله ساختاریافتهتر میشود.
- در شبیهسازیهای خدمات مشتری، استفاده از ابزار "think" عملکرد Claude را 54 درصد بهبود بخشید، در حالی که در وظایف مهندسی نرمافزار، افزایش عملکرد به طور متوسط 1.6 درصد بود.
- به گفته Anthropic، ابزار "think" به ویژه برای تصمیمگیریهای پیچیده و وظایف تجزیه و تحلیل موثر است و میتواند به راحتی در سیستمهای موجود گنجانده شود.